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摘要 : [ 目的 ] 解决 传统 数字 文献 资源 内 容 服务 推荐 中 无 法 充分 挖掘 资源 语义 信息 等 问题 。[ 方法 ] 通过 设 定 本 
体 推理 规则 对 用 户 查 询 关 键 词 进行 语义 扩展 ,提出 一 种 新 的 语义 相似 度 计算 方法 计算 文献 资源 内 容 相 似 度 。 按 
照相 似 度 大 小 对 搜索 结果 进行 排序 , 将 排名 较 高 的 文献 推荐 给 目标 用 户 。[ 结果 】 实验 结 果 证 明 , 该 方法 能 够 较 
准确 地 计算 语义 相似 度 ， 并 能 够 对 用 户 需 求 进行 有 效 推荐 。[ 局 限 ] 缺少 对 数字 资源 的 大 规模 采集 , 实验 案例 较 少 。 
[ 结论 ] 该 方法 充分 挖掘 数字 文献 资源 的 语义 信息 并 进行 有 效 推荐 , 为 数字 资源 内 容 服务 推荐 提供 一 种 新 思路 。 
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以 用 户 为 中 心 , 根据 用 户 的 个 性 化 需求 开展 具有 
针对 性 和 主动 性 的 信息 服务 , 是 提高 信息 服务 质量 和 
信息 资源 使 用 效率 的 重要 手段 个。 资源 服务 推荐 是 满 
足 用 户 个 性 化 价值 追求 的 有 效 手段 之 一 中 ,目前 , 基于 
内 容 的 推荐 路 、 基 于 协同 过 滤 推 荐 “4 、 以 及 基于 情境 
的 推荐 "等 资源 服务 推荐 方法 得 到 了 较 好 的 应 用 和 
推广 。 然 而 , 上述 推荐 方法 大 多 利用 关键 词 词 频 作为 
计算 依据 , 不 能 准确 表达 数字 文献 资源 的 语义 信息 " 
难以 区 分 数字 文献 资源 的 品质 和 风格 " ， 导 致 数字 文 
献 资源 的 结构 化 程度 较 低 , 限制 了 资源 的 有 效 利用 和 
共享 (无 法 充分 挖 气 用 户 潜在 的 信息 需求 '“ 1。 

本 文 将 本 体 作为 反映 资源 属性 关系 的 模型 ， 提 出 
一 种 基于 本 体 规则 推理 和 语义 相似 度 计算 的 数字 文献 
资源 推荐 方法 ,以 此 解决 推荐 系统 中 资源 的 语义 缺 


2 相关 研究 


21 本体 推 荐 

本 体 体现 的 是 特定 领域 知识 结构 的 概念 体系 , 反 
映 了 特定 领域 的 通用 观点 及 其 明确 的 概念 和 概念 间 关 
系 的 集合 , 侧重 领域 概念 层次 上 的 术语 及 术语 关系 的 
表达 , 为 知识 组 织 和 共享 提供 精确 控制 中。 基于 本 体 
的 推荐 方法 可 以 有 效 解决 推荐 系统 中 语义 缺乏 、 结 构 
化 程度 低 等 问题 (站 因而 成 为 学 者 关注 的 热点 。 目 前 ， 
主要 有 基于 本 体 规则 推理 的 资源 推荐 、 基 于 本 体 语义 
相似 度 的 资源 推荐 、 基 于 本 体 语义 描述 的 资源 推荐 等 
方式 。 基 于 本 体 规则 推理 的 资源 推荐 是 将 语义 网 本 体 
语言 同 推理 机 (如 Jess 、Pallet 等 ) 结 合 起 来 , 通过 设 定 、 
添加 规则 和 进行 逻辑 推理 ,发 据 隐 含 的 语义 关联 关系 ， 
将 关联 度 较 高 的 资源 推荐 给 目标 用 户 ? 闻 ,基于 本 体 语 
义 相似 度 的 资源 推荐 通过 构建 领域 本 体 对 多 源 信息 进 


乏 、 结 构 化 程度 低 等 问题 '“"， 并 充分 挖掘 用 户 潜在 
TR, 为 数字 资源 内 容 服 务 推荐 提供 一 种 新 思路 。 


行 整合 , 整合 后 的 本 体 属性 可 以 反映 资源 特征 , 再 通过 
计算 该 本 体 中 各 个 概念 节点 属性 及 本 体 网 络 结构 的 相 
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似 度 从 而 得 到 相似 资源 ,进而 提高 推荐 质量 5 汪汪 。 基 
于 本 体 语义 描述 的 资源 推荐 将 本 体 引 入 到 推荐 系统 
中 , 使 用 OWL 语 言 对 用 户 和 项 目 信 息 进行 描述 , 然后 
与 协同 过 滤 、 基 于 内 容 推 荐 等 传统 推荐 模型 相 结 合并 计 
算 用 户 偏好 信息 与 项 目 信息 的 相似 性 .用 户 和 项 目 具 备 
了 语义 信息 的 同时 , 也 提高 了 资源 信息 的 结构 化 描述 
KF, 并 且 可 以 有 效 提高 推荐 的 召回 率 和 准确 率 F 1。 

然而 基于 本 体 规则 推理 的 资源 推荐 仅 通过 设 定 
推荐 规则 挖掘 用 户 需 求 ,但 并 未 充分 描述 资源 的 语 
义 信 息 ; 基于 本 体 语义 相似 度 资 源 推荐 由 于 存在 关 
键 词 和 索引 词 之 间 的 多 重 表达 差异 而 无 法 表达 用 户 
的 真实 需求 ; 基于 本 体 语 义 描 述 的 资源 推荐 由 于 使 
用 传统 的 推荐 算法 而 存在 用 户 冷 启动 .评分 矩阵 稀 玻 
等 问题 导致 推荐 结果 精度 不 高 。 本 文 提 出 一 种 基于 本 
体 推理 规则 和 语义 相似 度 计算 的 推荐 方法 ， 以 解决 
推荐 系统 中 存在 的 资源 语义 信息 挖掘 不 充分 、 无 法 表 
达 用 户 需求 等 问题 ， 进 而 增强 推荐 系统 的 语义 表达 
与 处 理 能 力 。 
2.0 本体 规 则 推理 

本 体 推 理 可 以 发 现 本 体 中 隐 含 的 逻辑 关系 、 检 查 
本 体 和 知识 的 相 容 性 、 对 实例 进行 自动 分 类 忆 。 这 有 
利于 保证 本 体 构 建 的 正确 性 和 一 致 性 ,并 可 以 将 松散 
的 概念 、 属 性 、 实 例 等 联系 起 来 , 形成 一 个 完善 的 知 
识 库 ， 从 而 优化 本 体 , 降低 本 体 维护 的 成 本 中 。Hayes 
定义 了 D 推 导 规 则 集 ， 此 规则 集 是 从 一 个 RDF 图 推导 
出 一 组 标准 推导 规则 路 。 由 于 D 推 导 规 则 存在 不 完备 
PE, Ter Horst 对 其 进行 补充 63， 称 为 D 推导 规则 集 。 这 
个 规则 集 人 允许 空白 节点 出 现在 三 元 组 谓词 位 置 上 ， 以 
保证 RDFS 的 完备 性 。OWL 作 为 RDFS 的 扩展 , 解决 了 
RDFS 中 存在 的 不 支持 基数 约束 、 类 的 布尔 组 合 、 属 性 
的 限制 等 问题 。Horrocks 等 将 OWL1 DL 与 规则 集成 ， 
基于 Horn 子 句 的 RuleML 中 一 个 子 集 构造 出 语义 网 规 
则 语言 SWRLW 1。 作 为 语义 网 框架 , Jena 也 支持 规则 推 
理 。Jena 同 SWRL 类 似 , 语法 规则 格式 要 求 严 格 、 与 
OWL 描 述 方 式 相 近 , 并 且 可 以 采用 正 向 和 反 向 推理 ， 
因此 本 文采 用 Jena 规 则 对 概念 进行 扩展 推理 。 
2.3 语义 相似 度 

语义 相似 度 是 指 两 个 概念 间 的 相似 程度 "4 已 经 
被 应 用 于 词义 消 岐 5 、 自 动 检索 上 "9 、 图 像 分 类 及 标 
注 E 9 、 信 息 抽取 5 、 信 息 检 索 庆 ”等 领域 。 按 照 计 


算 方法 的 不 同 分 为 : 基于 距离 的 方法 、 基 于 内 容 的 方 
法 和 基于 属性 的 方法 等 。 基 于 距离 的 计算 方法 是 在 层 
次 网 络 中 使 用 路 径 长 度 来 量化 两 个 概念 之 间 的 语义 距 
离 中 ,两 个 概念 的 语义 距离 越 大 ， 即 路 径 长 度 越 长 ， 则 
相似 性 越 小 。 在 层次 网 络 中 , 全 部 有 向 边 距 离 的 权 值 
都 为 1， 即 将 各 个 节点 视 为 同等 重要 ,这 样 可 以 根据 层 
次 网 络 中 构成 最 短路 径 的 有 向 边 数量 计算 两 个 概念 的 
语义 距离 。 该 模型 假设 所 有 边 权 值 都 为 1, 但 在 实际 情 
况 中 , 节点 的 位 置信 息 、 节 点 的 类 型 和 节点 之 间 的 关联 
强度 等 因素 都 会 影响 其 重要 性 , 学 者 在 此 基础 上 对 该 
模型 进行 改进 , 例如, Leacock 等 考虑 了 本 体 分 类 体系 树 
自身 的 深度 对 概念 相似 度 的 影响 ,提出 了 改进 的 语义 
相似 度 计算 模型 仆 。 基 于 内 容 的 方法 的 认为 两 个 概念 
共享 的 信息 会 影响 二 者 的 语义 相似 度 。 在 层次 网 络 中 ， 
概念 子 节点 是 对 其 父 节 点 的 细 化 和 具体 化 , 子 节点 包 
含 父 节点 的 信息 内 容 ,这样 可 以 通过 计算 公共 父 节点 
概念 所 包含 的 信息 内 容 计 算 子 节点 概念 之 间 的 相似 度 。 
基于 属性 的 方法 外 是 利用 事物 之 间 不 同 的 属性 特征 区 
别 事物 。 两 个 事物 的 公共 属性 越 多 , 相似 度 越 高 。 因此 , 
可 以 利用 两 个 概念 对 应 的 属性 集 的 相似 程度 计算 概念 
的 语义 相似 度 。 然 而 上述 计算 方法 没有 考虑 本 体 结构 
信息 , 不 能 充分 体现 和 揭示 概念 之 间 的 语义 关系 ,导致 
相似 度 计算 的 结构 精度 不 高 。 本 文 提出 的 语义 相似 度 计 
算 方法 , 包含 密度 、 深 度 和 属性 三 种 影响 因素 ,可 较为 
准确 地 计算 出 概念 语义 相似 度 。 
3 推荐 方法 
3.1 推荐 流程 

基于 本 体 规则 推理 和 语义 相似 度 计算 的 数字 文献 
资源 推荐 方法 是 通过 将 用 户 输入 概念 扩展 为 一 组 相似 
概念 ， 实 现 本 体 的 细 粒 度 查询 ， 利 用 扩展 后 的 概念 与 
文献 资源 本 身 包含 的 语义 信息 进行 语义 相似 度 计 算 ， 
将 相似 度 较 高 的 文献 推荐 给 目标 用 户 ， 从 而 向 用 户 提 
供 有 价值 的 个 性 化 资源 推荐 服务 。 构 建 的 推荐 流程 如 
图 1 所 示 。 首先 用 户 输入 关键 词 , 利用 本 体 知识 库 中 的 
领域 本 体 规则 推理 对 输入 关键 词 进 行 概念 集 扩展 , 得 
到 扩展 查询 条 件 ; 其 中 资源 层 进行 领域 概念 抽取 ,并 
根据 抽取 的 领域 知识 创建 本 体 ， 建立 本 体 知识 库 ; dT 
算 层 将 查询 条 件 映 射 到 本 体 实例 (采用 关键 字 匹 配 的 
TE), 计算 扩展 后 概念 集 与 资源 的 语义 相似 度 ; 最 
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图 1 数字 文献 资源 内 容 服务 推荐 流程 


后 ,对 推荐 度 进行 排序 ， 并 将 推荐 度 较 高 的 数字 文献 
推荐 给 目标 用 户 。 
32 ”算法 设计 及 实现 

(1) 语义 推理 

利用 同 义 语义 扩展 进行 语义 推理 , 设 定 的 规则 包 
括 概 念 上 下 位 关系 及 相似 关系 。RDF 作 为 语义 网 本 体 
描述 语言 ， 规范 了 以 三 元 组 形式 陈述 的 数据 模型 。 
RDFS 可 以 用 来 表示 简单 的 术语 及 其 关系 , 例如 类 包 
含 、 属 性 包含 .属性 的 定义 域 和 值 域 等 .由 RDF 和 RDFS 
描述 的 推理 规则 具有 反 转 性 、 传 递 性 、 继 承 性 及 部 分 
性 等 。 例 如 : {v p wlp rdfs:domain u.} =v rdfs:type u. 
(rdfs2), (v p wlp rdfs:subPropertyOf q.} =v q w. Gdfs7)P0。 
OWL 作 为 RDFS 的 扩展 , 可 以 解决 RDFS 中 存在 的 不 支 
持 基数 约束 、 类 的 布尔 组 合 、 属 性 的 限制 等 问题 。OWL 
类 和 属性 的 推理 规则 具体 包括 : owl:sameAs owl: 
intersectionOf, someValuesFrom 和 allValuesFrom 
等 。 在 OWL 本 体 的 定义 中 , 利用 owl:sameAs 描 述 同 义 
关系 , Hirdfs:subClassOf 描述 上 下 位 关系 ,并且 二 者 
都 具有 传递 性 。 例 如 如 果 存 在 (?x rdfs: subClassOf ?y), 
且 (?y rdfs:subClassOf ?z), 那么 则 可 以 得 到 (3?x rdfs: 
subClassOf ?z)。 同 样 如 果 (?x owl:sameAs ?y)， 且 (?y 
owl:sameAs ?z)， 则 得 到 (?x owl:sameAs ?z)。 虽 然 并 未 
对 x 和 z 的 关系 进行 在 定义 , 但 可 以 利用 两 个 直接 的 定 
义 推理 得 出 二 者 隐 仿 的 定义 , 这 就 是 推理 机 的 作用 。 

Jena 作 为 创建 本 体 应 用 的 Java 框 架 结 构 ， 支 持 包 
括 对 RDF、RDFS、OWL 等 本 体 描述 语言 进行 解析 ,对 
RDF 文 件 和 模型 进行 处 理 ， 对 RDF 模 型 持续 性 存储 ， 
基于 规则 的 推理 等 功能 。Jena 提 供 基于 规则 的 推理 机 
(如 RDFS Reasoner, OWL Reasoner 等 ) 包 含 传递 推理 、 
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RDFS 规 则 推理 .OWL-Lite 推 理 等 推理 功能 ,也 包含 通 
用 规则 推理 和 第 三 方 推理 引擎 推理 功能 。Jena 规 则 与 
规则 推理 机 绑 定 ,规则 推理 机 通过 调用 bindSchema 与 
模型 或 模式 绑 定 B0。 由 于 Jena 功 能 较为 全 面 ,因此 选 
择 Jena 对 本 文 设 定 的 规则 进行 推理 。 

以 下 是 对 计算 机 推理 的 部 分 自 定义 产生 式 规则 : 

(Qprefixcomputer:«http://www.xh.com/computer.owl£. 

@include<RDFS>. 

@include<OWL>. 

String rules= 

“[Rulel:(?x rdfs:subClassOf ?y), (?y rdfs:subClassOf ?z)->(?x 

rdfs:subClassOf ?z)]”+“[Rule2:(?x owl:sameAs ?y), (?y 
owl:sameAs ?z)-»(?x owl:sameAs ?z)]" 

// 根 据 自 定义 推理 规则 创建 对 应 的 推理 机 

Reasoner reasoner-new GenericRuleReasoner 

(Rule.ParseRules(rules)) 

// 根 据 自 定义 的 推理 机 创建 包含 推理 关系 的 数据 模型 

InfMfodel inf=ModelFactory.createlnf Model(reasoner, rawData) 

(2) 语义 相似 度 的 计算 

在 领域 本 体 构成 的 本 体 层次 网 络 中 , 子 节点 是 父 
节点 概念 的 细 化 , 子 节点 概念 的 含义 比 父 节点 更 加 具 
体 。 因 此 ,概念 所 处 位 置 深度 越 深 , 周围 节点 密度 越 
大 ,表示 概念 包含 的 信息 量 越 多 。 如 果 网 络 中 子 节 点 
概念 和 父 节 点 概念 共同 属性 越 多 , 那么 二 者 关系 相似 
度 越 高 , 有 向 边 权 重 赋值 越 大 。 基 于 此 , 本 文 提 出 了 语 
义 相 似 度 算 法 如 公式 (D)， 其 中 影响 因素 包括 层次 深 
度 、 区 域 密度 和 概念 属性 。 


D(Anc(p;. p2)) xmin(D(p1), D(p2)) 
D(Anc(p, p; )) x min(D(p;), D(p2)) + oxlen(p;, p2) 
" 2xIC[Anc(p;. p2)] me N(attr(p,) flattr(p;)) 

IC(pi) + IC(p;) N(attr(p) Uattr(p;)) 


Sim(pl,p? ) = ax 


(1) 
其 中 ，N(attr(p1) flattr(p;)) 为 p! 和 ps 公共 属性 的 


N 5 He 
all ， Na 为 所 有 节点 
Nine (pi. P2) 


的 数量 , Nance, nz) 为 py 和 p: 共 同 祖先 节点 的 数量 。 
基于 本 体 的 语义 相似 度 改进 算法 的 描述 如 下 所 示 : 

输入 : 抽象 概念 术语 集合 ACS; 

输出 : 待 推荐 文献 资源 及 相似 度 ; 

Begin: 

For each ig € 抽象 概念 术语 集合 ACS 

E Glossary 表 中 查找 与 概念 术语 ig 相似 的 概念 存 入 AT, 并 
将 数字 文献 资源 概念 放 入 字符 串 数组 A2 
/Glossary 表 为 本 文 构建 的 本 体 中 所 有 的 概念 集合 


数量 。 a+ßB+y=1, œ= 
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DWhile count(A 1)Z0&&count(A2) #0 
图 从 数组 Al 中 取出 一 个 概念 和 从 数组 A2 中 取出 一 个 概念 并 
计算 其 相似 度 Simvalue 
Olf sim(ig, ig1)» Bä 
(ODo 扩展 后 抽象 概念 术语 集合 EACSig-EACSig U ig 
Simvalue=Simvaluetsim(ig, igl) 
Endif 
Endwhile 
End 
Q) 推荐 方法 设计 
本 文 提 出 的 推荐 方法 可 以 用 如 下 伪 代 码 进行 表示 : 
输入 : 用 户 查 询 概念 C; 
输出 : 符合 用 户 需求 的 数字 文献 资源 ; 


Begin 

中 获得 输入 概念 c 

@) 通 过 Jena 进行 语义 推理 ， 获 得 扩展 的 概念 集合 C- (el, c2, 
cn} 

@ 回 查询 资源 库 中 包含 S(C) 中 的 任意 概念 的 文献 资源 ， 形成 
STMP(C, P) 

人 将 扩展 后 的 概念 集合 同 描述 文献 资源 的 概念 集合 进行 相关 
度 计算 
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OIRAN Recd=Simvalue/N 计算 推荐 度 
IN 为 相似 度 的 计算 次 数 
(@If Recd 大 于 阅 值 
(DDo 用 户 设 定 推荐 资源 数量 T 
按照 推荐 度 大 小 将 T 个 资源 Items 推荐 给 用 户 


Endif 
End 
4 实验 设计 及 分 析 
4.1 本 体 构建 


本 文 构建 的 计算 机 领域 本 体 使 用 的 概念 术语 主要 
来 源 于 《计算 机 科学 技术 百科 全 书 》"9 和 《中 国 图 书 
EDRR), 计算机 科学 技术 百科 全 书 》 收 录 了 计 
算 机 领域 概念 中 的 完整 术语 ， 收 词 范 围 较 广 , 词汇 分 
类 及 定义 规范 , 权威 性 强 , 因此 将 其 作为 构建 计算 机 
领域 本 体 的 参考 。 利 用 Protkg6 中 OntoGraf 功 能 ， 可 以 
显示 构建 本 体 的 效果 图 。 以 计算 机 科学 为 中 心 形成 可 
视 的 关联 图 如 图 2 所 示 : 


/ hs bs N 
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图 2 计算 机 领域 本 体 部 分 示意 图 


本 文 构建 的 计算 机 领域 本 体 包含 1 000 多 个 具有 
可 检 意 义 的 计算 机 领域 概念 、 属 性 及 其 相互 关系 。 
4.2 算法 实验 

(1) 相似 度 检 验 

本 文 计 算 10 组 具有 代表 性 概念 的 语义 相似 度 , 并 
与 文献 [42-43] 提 出 的 计算 方法 进行 对 比 实验 。 另 外 ， 
为 了 对 比 实验 效果 , 采用 咨询 的 方式 获得 人 工 对 于 语 
义 相 似 度 的 判断 。 咨 询 对 象 包括 计算 机 专业 、 情 报 专 


CDhttp://protege.stanford.edu/. 


业 、 经 济 专业 的 硕士 生 和 博士 生 , 共有 20 人 。 通 过 对 
该 组 概念 语义 评价 问题 进行 语义 相似 度 判 定 。 语 义 相 
似 度 的 评判 范围 是 [0-1], 0 表示 两 个 概念 完全 不 同 , 1 表 
示 两 个 概念 语义 相同 。 对 专业 及 非 专 业 的 受 测 者 各 进 
行 两 次 试验 , 并 对 同一 概念 语义 相似 度 的 评测 结果 取 
平均 值 。 

表 1 中 的 Siml 和 Sim2 为 文献 [42-43] 语 义 相 似 度 
方法 计算 得 到 的 结果 ; Sim3 为 本 文 提出 的 方法 进行 
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语义 相似 度 计算 后 得 到 的 结果 ,最 后 一 项 为 人 工 判 
断 的 结果 。 
表 1 概念 语义 相似 度 计算 结 
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源 间 的 语义 相似 性 , 丰富 了 文献 资源 语义 信息 ,提高 了 
语义 相关 度 计 算 效 果 , 并 对 目标 用 户 进 行 有 效 的 推荐 。 
表 2 本 文 算 法 下 评价 指标 


词汇 1 词汇 2 Siml Sim2 Sim3 “人工 判断 
信息 信念 0.5 0.416 0.468 0.465 
软件 C 语言 0.333 0.380 0.362 0.357 
软件 面向 对 象 ”0.417 0.385 0.492 0.507 
软件 构件 0.571 0.568 0.435 0.422 
E 存储 器 0.736 0.752 0.603 0.621 
加 法 器 寄存 器 0.375 0.522 0.303 0.299 
网 络 通 信 ”光纤 1.000 1.000 0.804 0.778 
局 域 网 以 太 网 0.231 0.230 0.205 0.109 
图 形 学 SHEM 0.387 0.397 0.285 0.291 
多 媒体 ” 流 媒 体 0.380 0.388 0.355 0.357 


由 表 1 可 知 , 对 比分 析 Siml1、Sim2、Sim3 这 三 列 ， 
前 5 行 可 以 看 出 这 三 种 算法 计算 结果 均 比 较 符合 目标 
用 户 的 主观 判断 , 但 是 对 于 概念 节点 附近 密度 较 大 或 
者 公共 属性 较 多 的 概念 , 会 导致 相似 度 计算 结果 并 不 
合理 , 而 本 文 提 出 的 方法 能 够 较为 准确 地 计算 出 概念 
相似 度 , 使 语义 相似 度 计算 结果 符合 目标 用 户 的 主观 
判断 。 

(2) 推荐 检验 

为 了 检验 该 推荐 方法 ， 从 知 网 下 载 800 篇 计算 机 
领域 的 文献 作为 数据 集 ， 这 些 文献 包含 题目 、 摘 要 和 
关键 词 。 由 于 关键 词 可 以 描述 文章 的 主题 , 因此 选用 


测试 集 测试 数字 数字 文献 资 成 功 推荐 


数据 “文献 资源 源 推 荐 总 数 。 数目 cue 
10% 80 40 16 0.400 0.5 0.44 

3096 240 120 54 0.450 0.5 0477 
50% 400 200 93 0.465 0.5 0.482 
70% 560 280 142 0.507 0.5 0.504 
90% 720 360 201 0.558 0.5 0.528 


5 结 i& 


E 


本 文 提 出 了 一 种 基于 本 体 规则 推理 和 语义 相似 度 
计算 的 数字 文献 资源 内 容 服务 推荐 方法 。 该 方法 利用 
Jena 规则 推理 对 用 户 输入 的 概念 进行 语义 扩展 , 将 扩 
展 后 的 概念 集 与 数字 文献 资源 自身 语义 信息 进行 相似 
度 计算 和 排序 , 得 出 推荐 度 较 高 的 文献 并 推荐 给 目标 
用 户 。 绪 果 表明 , 该 方法 能 够 比较 准确 地 反映 概念 
间 的 语义 关系 及 计算 概念 节 点 之 间 的 语义 相似 度 ， 可 
以 充分 挖掘 用 户 需求 并 形成 具有 针对 性 的 数字 资源 内 
容 服务 推荐 。 由 于 采集 的 文献 资源 数量 和 内 容 丰 富 程 
度 不 够 , 并 且 推 荐 结果 由 用 户 判 断 其 推荐 的 准确 程度 ， 
具有 一 定 的 主观 性 ; 为 了 对 比 推荐 效果 , 本 文 的 查 全 
率 设 定 为 0.5, 并 没有 随 着 测试 文献 的 数量 增加 而 增 
加 ， 以 上 导致 了 本 文 了 值 低 于 现 有 的 推荐 算法 。 因 此 ， 


关键 词 作 为 文章 的 语义 描述 .利用 F 评 价 指标 比较 不 同 
数据 集 的 推荐 效果 , E 评 价 指标 的 包括 查 准 率 
(Precisiom) 和 查 全 率 (Recal) 两 项 指标 ，F 值 越 高 ， 推 荐 
效果 越 好 。 
F = 2x Precision x Recall /(Precision + Recall) O) 

其 中 , Precision 与 Recall 计算 方法 分 别 为 : 
符合 用 户 需 求 的 推荐 的 数字 文献 资源 数量 
推荐 的 数字 文献 资源 总 数 
推荐 的 数字 文献 资源 数量 
数字 文献 资源 总 数 

实验 结果 如 表 2 所 示 。 由 表 2 可 知 , 采用 本 文 方 
法 得 到 的 文献 资源 推荐 结果 下 值 随 着 文献 数量 的 增加 
而 提高 。 由 于 充分 考虑 了 本 体 知 识 库 中 关于 概念 密度 
和 概念 属性 等 本 体 的 结构 特征 , 使 得 本 文 的 概念 相似 
度 计算 方法 计算 得 到 的 结果 可 以 更 准确 地 反映 文献 资 


Precision = x100% (3) 


Recall = x100% (4) 
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提高 推荐 方法 的 值 及 推荐 文献 资源 的 丰富 程度 也 是 
今后 研究 的 重点 。 
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New Content Recommendation Service of Digital Literature 


Liu Jian BiQiang! Liu Qingxu Wang Fu"? 
(School of Management, Jilin University, Changchun 130022, China) 
*(Inner Mongolia University of Technology Library, Huhhot 010051, China) 


Abstract: [Objective] This paper tries to improve the traditional content recommendation service of digital literature, 
which cannot fully exploit the semantic information of the literature. [Methods] First, we introduced the Ontology 
reasoning rules to the recommendation system, and then semantically extended the user's query. Second, we calculated 
the similarity of the literature to rank. Finally, we recommend those top ranked literature to the users. [Results] The 
proposed algorithm can calculate the semantic similarity among literature and successful recommend documents to the 
users. [Limitations] Only examined the new method with relatively small data sets. [Conclusions] The proposed 
algorithm could effectively exploit the semantic information of target literature and offer a new way to recommend 
digital resource to the users. 
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